当不可能使用深度传感器时,估计与物体的距离对于自动驾驶至关重要。在这种情况下,必须从车载安装的RGB摄像机估算距离,这是一项复杂的任务,尤其是在天然室外景观等环境中。在本文中,我们提出了一种名为M4Depth的新方法,以进行深度估计。首先,我们建立了两个连续帧的深度与视觉差异之间的徒关系,并展示了如何利用它以执行运动不变的像素深度估计。然后,我们详细介绍了基于金字塔卷积神经网络体系结构的M4DEPTH,每个级别通过使用两个定制的成本量来完善输入差异图估计。我们使用这些成本量来利用运动施加的视觉时空约束,并为各种场景增强网络的稳健性。我们在公共数据集上基准了我们的测试和概括模式的方法,其中包含在各种室外场景中记录的合成相机轨迹。结果表明,我们的网络在这些数据集上的表现优于最新技术,同时在标准深度估计基准上表现良好。我们方法的代码可在https://github.com/michael-fonder/m4depth上公开获得。
translated by 谷歌翻译
Comparison-based learning addresses the problem of learning when, instead of explicit features or pairwise similarities, one only has access to comparisons of the form: \emph{Object $A$ is more similar to $B$ than to $C$.} Recently, it has been shown that, in Hierarchical Clustering, single and complete linkage can be directly implemented using only such comparisons while several algorithms have been proposed to emulate the behaviour of average linkage. Hence, finding hierarchies (or dendrograms) using only comparisons is a well understood problem. However, evaluating their meaningfulness when no ground-truth nor explicit similarities are available remains an open question. In this paper, we bridge this gap by proposing a new revenue function that allows one to measure the goodness of dendrograms using only comparisons. We show that this function is closely related to Dasgupta's cost for hierarchical clustering that uses pairwise similarities. On the theoretical side, we use the proposed revenue function to resolve the open problem of whether one can approximately recover a latent hierarchy using few triplet comparisons. On the practical side, we present principled algorithms for comparison-based hierarchical clustering based on the maximisation of the revenue and we empirically compare them with existing methods.
translated by 谷歌翻译
Accurate diagnosis and prognosis of Alzheimer's disease are crucial to develop new therapies and reduce the associated costs. Recently, with the advances of convolutional neural networks, methods have been proposed to automate these two tasks using structural MRI. However, these methods often suffer from lack of interpretability, generalization, and can be limited in terms of performance. In this paper, we propose a novel deep framework designed to overcome these limitations. Our framework consists of two stages. In the first stage, we propose a deep grading model to extract meaningful features. To enhance the robustness of these features against domain shift, we introduce an innovative collective artificial intelligence strategy for training and evaluating steps. In the second stage, we use a graph convolutional neural network to better capture AD signatures. Our experiments based on 2074 subjects show the competitive performance of our deep framework compared to state-of-the-art methods on different datasets for both AD diagnosis and prognosis.
translated by 谷歌翻译
在本文中,我们考虑了一个$ {\ rm u}(1)$ - 连接图,也就是说,每个方向的边缘都赋予了一个单位模量复杂的数字,该数字在方向翻转下简单地结合了。当时,组合laplacian的自然替代品是所谓的磁性拉普拉斯(Hermitian Matrix),其中包括有关图形连接的信息。连接图和磁性拉普拉斯人出现,例如在角度同步问题中。在较大且密集的图的背景下,我们在这里研究了磁性拉普拉斯的稀疏器,即基于边缘很少的子图的光谱近似值。我们的方法依赖于使用自定义的确定点过程对跨越森林(MTSF)进行取样,这是一种比偏爱多样性的边缘的分布。总而言之,MTSF是一个跨越子图,其连接的组件是树或周期根的树。后者部分捕获了连接图的角不一致,因此提供了一种压缩连接中包含的信息的方法。有趣的是,当此连接图具有弱不一致的周期时,可以通过使用循环弹出的随机行走来获得此分布的样本。我们为选择Laplacian的自然估计量提供了统计保证,并调查了我们的Sparsifier在两个应用中的实际应用。
translated by 谷歌翻译
我们提出了MonteboxFinder,该方法给定嘈杂的输入点云将立方体适合输入场景。我们的主要贡献是一种离散的优化算法,从一组最初检测到的立方体,它能够有效地从嘈杂的盒子中过滤好盒子。受到MCT在理解问题的最新应用的启发,我们开发了一种随机算法,该算法是通过设计更有效的。确实,适合立方排列的质量对于将立方体添加到场景的顺序中是不变的。我们为我们的问题开发了几个搜索基准,并在扫描仪数据集上证明了我们的方法更有效和精确。最后,我们坚信我们的核心算法非常笼统,并且可以扩展到3D场景理解中的许多其他问题。
translated by 谷歌翻译
我们介绍了在视频中发现时间精确,细粒度事件的任务(检测到时间事件的精确时刻)。精确的斑点需要模型在全球范围内对全日制动作规模进行推理,并在本地识别微妙的框架外观和运动差异,以识别这些动作过程中事件的识别。令人惊讶的是,我们发现,最高的绩效解决方案可用于先前的视频理解任务,例如操作检测和细分,不能同时满足这两个要求。作为响应,我们提出了E2E点,这是一种紧凑的端到端模型,在精确的发现任务上表现良好,可以在单个GPU上快速培训。我们证明,E2E点的表现明显优于最近根据视频动作检测,细分和将文献发现到精确的发现任务的基线。最后,我们为几个细粒度的运动动作数据集贡献了新的注释和分裂,以使这些数据集适用于未来的精确发现工作。
translated by 谷歌翻译
我们解决了分类中群体公平的问题,目的是学习不会不公正地歧视人口亚组的模型。大多数现有方法仅限于简单的二进制任务或涉及难以实施培训机制。这降低了他们的实际适用性。在本文中,我们提出了Fairgrad,这是一种基于重新加权方案来实施公平性的方法,该计划根据是否有优势地迭代地学习特定权重。Fairgrad易于实施,可以适应各种标准公平定义。此外,我们表明它与各种数据集的标准基线相媲美,包括自然语言处理和计算机视觉中使用的数据集。
translated by 谷歌翻译
阿尔茨海默氏病和额颞痴呆是两种主要痴呆症。它们的准确诊断和分化对于确定特定干预和治疗至关重要。然而,由于临床症状的类似模式,在疾病的早期,这两种痴呆症的鉴别诊断仍然很困难。因此,多种类型痴呆的自动分类具有重要的临床价值。到目前为止,尚未积极探索这一挑战。最近在医学图像领域进行深度学习的发展已经证明了各种分类任务的高性能。在本文中,我们建议利用两种类型的生物标志物:结构分级和结构萎缩。为此,我们首先建议训练大型3D U-NET的合奏,以局部区分健康与痴呆症解剖模式。这些模型的结果是一个可解释的3D分级图,能够指示异常的大脑区域。该地图也可以使用图形卷积神经网络在各种分类任务中被利用。最后,我们建议将深度分级和基于萎缩的分类结合起来,以改善痴呆型识别。与最先进的疾病检测任务和鉴别诊断任务相比,提出的框架表现出竞争性能。
translated by 谷歌翻译
我们提出了一种方法,可以在神经SDF渲染器中相对于几何场景参数自动计算正确的梯度。最近基于物理的可区分渲染技术用于网格采样来处理不连续性,尤其是在对象轮廓上,但是SDF没有简单的参数形式,可用于采样。取而代之的是,我们的方法建立在区域采样技术的基础上,并为SDFS开发了连续的翘曲功能,以解决这些不连续性。我们的方法利用了在SDF中编码的表面的距离,并在球形示踪剂点上使用正交来计算此翘曲功能。我们进一步表明,这可以通过对要点进行次采样来使神经SDF的方法进行。我们可区分的渲染器可用于优化从多视图图像中的神经形状,并对最近基于SDF的反向渲染方法产生可比较的3D重建,而无需2D分割掩码来指导几何形状优化,而无需对几何形状进行体积近似。
translated by 谷歌翻译
$ \ mathbf {perive} $:使用人工智能(AI)到:(1)从相对较大的人群中利用视神经头(ONH)的生物力学知识; (2)评估ONH的单个光学相干断层扫描(OCT)扫描的稳健性; (3)确定哪些关键的三维(3D)结构特征使给定的ONH稳健。 $ \ Mathbf {Design} $:回顾性横断面研究。 $ \ mathbf {Methods} $:316个受试者通过Ophthalmo-Dynamometry在急性眼内和之后与OCT成像。然后将IOP诱导的椎板胶状变形映射为3D,并用于对ONH进行分类。 LC变形高于4%的人被认为是脆弱的,而变形较低的人则较低4%。从这些数据中学习,我们比较了三种AI算法,以严格地从基线(未呈现的)OCT卷中预测鲁棒性:(1)随机森林分类器; (2)自动编码器; (3)动态图CNN(DGCNN)。后一种算法还使我们能够确定哪些关键的3D结构特征使给定的智能稳定。 $ \ mathbf {结果} $:所有3种方法都能够单独预测3D结构信息的稳健性,而无需执行生物力学测试。 DGCNN(接收器操作曲线下的区域[AUC]:0.76 $ \ pm $ 0.08)的表现优于自动编码器(AUC:0.70 $ \ pm $ 0.07)和随机森林分类器(AUC:0.69 $ \ pm $ 0.05)。有趣的是,为了评估稳健性,DGCNN主要使用了巩膜和LC插入部位的信息。 $ \ mathbf {结论} $:我们提出了一种AI驱动的方法,可以仅从ONH的单个OCT扫描中评估给定ONH的稳健性,而无需进行生物力学测试。纵向研究应确定ONH鲁棒性是否可以帮助我们确定快速的视野损失进展者。
translated by 谷歌翻译